Logical reasoning of text is an important ability that requires understanding the information present in the text, their interconnections, and then reasoning through them to infer new conclusions. Prior works on improving the logical reasoning ability of language models require complex processing of training data (e.g., aligning symbolic knowledge to text), yielding task-specific data augmentation solutions that restrict the learning of general logical reasoning skills. In this work, we propose APOLLO, an adaptively pretrained language model that has improved logical reasoning abilities. We select a subset of Wikipedia, based on a set of logical inference keywords, for continued pretraining of a language model. We use two self-supervised loss functions: a modified masked language modeling loss where only specific parts-of-speech words, that would likely require more reasoning than basic language understanding, are masked, and a sentence-level classification loss that teaches the model to distinguish between entailment and contradiction types of sentences. The proposed training paradigm is both simple and independent of task formats. We demonstrate the effectiveness of APOLLO by comparing it with prior baselines on two logical reasoning datasets. APOLLO performs comparably on ReClor and outperforms baselines on LogiQA.
translated by 谷歌翻译
We propose Universal Document Processing (UDOP), a foundation Document AI model which unifies text, image, and layout modalities together with varied task formats, including document understanding and generation. UDOP leverages the spatial correlation between textual content and document image to model image, text, and layout modalities with one uniform representation. With a novel Vision-Text-Layout Transformer, UDOP unifies pretraining and multi-domain downstream tasks into a prompt-based sequence generation scheme. UDOP is pretrained on both large-scale unlabeled document corpora using innovative self-supervised objectives and diverse labeled data. UDOP also learns to generate document images from text and layout modalities via masked image reconstruction. To the best of our knowledge, this is the first time in the field of document AI that one model simultaneously achieves high-quality neural document editing and content customization. Our method sets the state-of-the-art on 9 Document AI tasks, e.g., document understanding and QA, across diverse data domains like finance reports, academic papers, and websites. UDOP ranks first on the leaderboard of the Document Understanding Benchmark (DUE).
translated by 谷歌翻译
知识密集型任务,例如开放域问题答案(QA),需要访问大量的世界知识或领域知识。知识密集型任务的一种常见方法是采用检索到阅读的管道,该管道首先从诸如Wikipedia之类的外部语料库中检索少数相关的上下文文档,然后预测在检索文档的条件下得到答案。在本文中,我们提出了一种新的观点,可以通过用大型语言模型生成器代替文档检索器来解决知识密集型任务。我们称我们的方法生成-Read Read(GenRead),该方法首先提示大型语言模型根据给定问题生成上下文文档,然后读取生成的文档以产生最终答案。此外,我们提出了一种基于聚类的提示方法,该方法选择了不同的提示,从而产生了涵盖不同观点的生成文档,从而更好地回忆了可接受的答案。我们对三个不同的知识密集任务进行了广泛的实验,包括开放域质量检查,事实检查和对话系统。值得注意的是,GenRead在Triviaqa和WebQ上实现了71.6和54.4的精确匹配分数,显着超过了最先进的检索到+4.0和+3.9的最先进的dpr-fid,而无需从任何外部知识源中检索任何文档。最后,我们证明可以通过结合检索和生成来进一步提高模型性能。
translated by 谷歌翻译
完成知识三胞胎的任务具有广泛的下游应用程序。结构和语义信息在知识图完成中起着重要作用。与以前依靠知识图的结构或语义的方法不同,我们建议将语义共同嵌入知识三胞胎的自然语言描述及其结构信息。我们的方法通过对概率结构化损失进行微调预训练的语言模型来嵌入完成任务的知识图,其中语言模型的正向通过捕获语义和损失重建结构。我们对各种知识图基准的广泛实验证明了我们方法的最新性能。我们还表明,由于语义的更好使用,我们的方法可以显着提高低资源制度的性能。代码和数据集可在https://github.com/pkusjh/lass上找到。
translated by 谷歌翻译
生成与历史数据具有相似分布和依赖性的电力系统对于系统规划和安全评估的任务至关重要,尤其是在历史数据不足的情况下。在本文中,我们根据有条件的变异自动编码器(CVAE)神经网络体系结构描述了工业和商业客户负载概况的生成模型,由于此类配置文件的高度可变性质,该模型具有挑战性。生成的上下文负载轮廓是在一年中的一个月进行的,并与电网进行了典型的电力交换。此外,世代的质量在视觉和统计上都经过评估。实验结果表明,我们提出的CVAE模型可以捕获历史负载谱的时间特征,并以满意的单变量分布和多元依赖性生成“现实”数据。
translated by 谷歌翻译
本文介绍了Z-Code ++,这是一种针对抽象文本摘要优化的新的预训练的语言模型。该模型使用三种技术扩展了艺术编码器模型的状态。首先,我们使用两阶段的预训练过程来改善模型在低资源摘要任务上的性能。该模型首先是使用文本语料库进行语言理解的预先培训的,然后在汇总语料库中不断预先培训,以进行基础文本生成。其次,我们用分离的注意力层代替编码器中的自我发项层,其中每个单词都使用两个向量分别代表其内容和位置。第三,我们使用融合编码器,这是一种以层次方式编码长序列的简单而有效的方法。 Z-Code ++在13个文本摘要任务中的9个跨5种语言中创建了新的艺术状态。我们的模型的参数有效,因为它的表现优于XSUM上600倍较大的Palm-540b,并且在Samsum上的易经的200倍GPT3-175B较大。在零射击和少量设置中,我们的模型大大优于竞争模型。
translated by 谷歌翻译
在本文中,我们提出了一种先进的方法,用于针对单眼3D车道检测的问题,通过在2D至3D车道重建过程下利用几何结构。受到先前方法的启发,我们首先分析了3D车道与其2D表示之间的几何启发式,并提议根据先验的结构进行明确的监督,这使建立车上和车内的关系可以实现,以促进促进。从本地到全球的3D车道的重建。其次,为了减少2D车道表示中的结构损失,我们直接从前视图图像中提取顶视车道信息,从而极大地缓解了以前方法中遥远的车道特征的混淆。此外,我们通过在管道中综合新的培训数据来分割和重建任务,以应对相机姿势和地面斜率的不平衡数据分布,以改善对看不见的数据的概括,以应对我们的管道中的分割和重建任务,以对抗分割和重建任务,从而提出了一种新颖的任务数据增强方法。我们的工作标志着首次尝试使用几何信息到基于DNN的3D车道检测中的尝试,并使其可用于检测超长距离的车道,从而使原始检测范围增加一倍。提出的方法可以由其他框架平稳地采用,而无需额外的成本。实验结果表明,我们的工作表现优于Apollo 3D合成数据集的最先进方法以82 fps的实时速度在不引入额外参数的情况下实时速度为3.8%。
translated by 谷歌翻译
Vision-Language(V + L)预先润廓模型通过了解图像和文本之间的对齐来支持多媒体应用程序取得了巨大成功。虽然现有的视觉预押模型主要专注于了解文本中的图像或实体中的对象,但它们通常会忽略事件级别的对齐及其参数结构。 %在这项工作中,我们提出了一种对比的学习框架来强制执行愿景 - 语言预押模型来理解事件和相关参数(参与者)角色。为此,我们利用文本信息提取技术来获得事件结构知识,并利用多个提示函数来通过操纵事件结构来对比难度的负面描述。我们还基于最佳传输来设计事件图对齐损耗以捕获事件参数结构。此外,我们收集了一个大型活动的数据集(106,875张图片),用于预磨平,这提供了更具挑战性的图像检索基准,以评估对复杂冗长的句子的理解。实验表明,我们的零射剪辑事件优于在多媒体事件提取中的参数提取中的最先进的监督模型,从而实现了事件提取中的5±绝对f得分增益,以及显着改进零拍摄设置下的各种下游任务。
translated by 谷歌翻译
我们启动了对MLP架构进行了视觉和语言(VL)融合的第一个实证研究。通过对5 VL任务和5个强大的VQA基准测试的广泛实验,我们发现:(i)没有预先训练,使用MLP进行多模式融合,与变压器相比具有明显的性能差距; (ii)但是,VL预培训可以帮助关闭性能差距; (iii)代替重大的多主头注意力,将微小的单臂注意MLPS增加足以实现对变压器的可比性。此外,我们还发现,当在更难的鲁棒VQA基准测试时,MLP和变压器之间的性能差距不会扩大,建议使用MLP融合可以大致呈现与使用变压器相似的程度。这些结果提示MLP可以有效地学会对准从较低级别的编码器中提取的视觉和文本功能,而不依赖于自我关注。基于此,我们提出了一个更大胆的问题:我们可以为VL建模提供全部MLP架构,其中VL融合和视觉编码器都用MLPS替换吗?我们的结果表明,与最先进的全功能VL模型相比,全部MLP VL模型是当它们都获得预先培训的时型vl模型。然而,预先培训ALL-MLP可能令人惊讶地实现比没有预先训练的完整变压器模型更好的平均分数。这表明VL建模的MLP样架构的大规模预培训的潜力,并激发了未来的研究方向,简化了较少的归纳设计偏差的良好的VL建模。我们的代码可公开提供:https://github.com/easonnie/mlp-vil
translated by 谷歌翻译
今天的大部分AI系统都专注于使用自我关注机制和变压器架构在大量多样化的数据中实现令人印象深刻的性能收益。在本文中,我们建议使用外部注意机制增强变压器架构,以带来外部知识和背景。通过将外部信息集成到预测过程中,我们希望减少对更大的模型的需求,并增加AI系统的民主化。我们发现所提出的外部注意机制可以显着提高现有AI系统的性能,使从业者可以轻松地将基础AI模型自定义到许多不同的下游应用程序。特别是,我们专注于勤杂朗语推理的任务,展示所提出的外部注意机制可以增加现有的变压器模型,并显着提高模型的推理能力。拟议的系统,知识外部关注推理(Kear),达到了开放的铜商QA研究基准的人类奇偶校验,其准确性为89.4 \%,与人类准确性为88.9 \%。
translated by 谷歌翻译